机器学习算法应用中常用技巧-1

2017-02-06 全球人工智能

1. 取样

数据量很大的时候，想要先选取少量数据来观察一下细节。

2. Split数据

用 sklearn.cross_validation.train_test_split 将数据分为 train 和 test 集。
sklearn：http://scikit-learn.org/stable/modules/cross_validation.html#stratified-shuffle-split

分离出 Features & Label

有时候原始数据并不指出谁是label，自己判断

3. 用 train 来训练模型，用 test 来检验

用 Decision Tree 来做个例子
sklearn：http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

4. 判断 feature 间的关联程度

5. scaling

当数据不符合正态分布的时候，需要做 scaling 的处理。常用的方法是取log。

scaling前后对比图：

6. Outliers

方法之一是 Tukey 方法，小于 Q1 – (1.5 × IQR) 或者大于 Q3 + (1.5 × IQR) 就被看作是outlier。

先把各个 feature 的 outlier 列出来并排好序：

再配合 boxplot 观察，到底哪些 outlier 需要被移除：

本文转自 CSDN原文：http://blog.csdn.net/u014365862/article/details/54890040

❈

全球人工智能近期经典文章推荐

Deep mind:给人工智能一个工作存储器，将会发生什么？

机器学习算法之决策树用法详解（使用Scikit-learn模块）

反向传播的意义及c++实现

匹兹堡赌场的赌神——扑克牌机器人背后的理论

6亿用户的《今日头条》和它的黑科技武器

干货|如何利用 TensorFlow 创建第一个神经网络

深度学习里数学之--方差--美妙而富有韵味

干获|详解深度学习框架——TensorFlow

Google｜“自动机器学习”取得重大突破：机器设计的机器学习软件已达AI专家设计水平！

【南大教授】提出“超深度学习”欲颠覆“深度学习”，你怎么看？

❈

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了